Sobre nosotros – Cluster INFAP

El Cluster del Instituto de Física Aplicada (INFAP), de doble dependencia CONICET-UNSL tiene una vasta trayectoria e historia en la Universidad Nacional de San Luis (UNSL) y el INFAP.

Por ello, se realiza en los subsiguientes párrafos una breve reseña del Cluster, así como se detallan sus características más sobresalientes.

Reseña Historia del Cluster del INFAP

A mediados de 1995, se construye la página web de la Universidad Nacional de San Luis y, al año siguiente, se logra la conexión a Internet en todos los edificios de la Universidad. Esto contribuye a una mejor intercomunicación interna entre los actores del medio universitario.

Atento a esto, a través del Departamento de Física de la UNSL, surge la necesidad de investigadores de dicho Departamento de efectuar simulaciones del tipo Monte Carlo. Con ello, surge la necesidad de contar con equipamiento que permita darle la capacidad de obtener los resultados en un tiempo razonable.

A través de una donación un investigador en el año 1995, compuesta por máquinas Pentium III 3000MHz con 1GB de RAM, se instala en Rectorado de la UNSL, el primer Cluster perteneciente a la UNSL el cual podía ser utilizado por los diversos grupos de investigación que se estaban iniciando en el tema. Dicho Cluster utilizaba Condor para la gestión de recursos de cómputo.

Pasado un tiempo, a través de la iniciativa de investigadores del Departamento de Física de la UNSL se incursiona en la creación de un Cluster GNU Linux del tipo Beowulf, compuesto por 7 PC de escritorio de la época (Pentium III 200MHz 128MB de RAM) ubicadas en el subsuelo del Edificio Chacabuco y Pedernera. Se utilizaba también Condor, y la implementación y configuración del Cluster estuvo a cargo del Lic. Fernando Aversa.

Seguidamente, entre los años 2002 y 2003 se implementa el Cluster denominado BACO, que cuenta en primera instancia con 12 máquinas y luego va creciendo paulatinamente en número. Sin embargo, a medida que el número de máquinas iba aumentando se producían diversas fallas en hardware que inutilizaban gran parte del equipamiento.

El Cluster BACO se emplaza, en forma muy transitoria en las instalaciones del edificio denominado Barco de la UNSL.

Estaba compuesto de un Nodo Master y algunas PCs de escritorio que funcionaban como nodos del Cluster. En cuanto a la conectividad, se realizaba mediante una red Fast-Ethernet, con los recursos disponibles en ese momento. El Sistema Operativo utilizado fue Scientific Linux y el Sistema de Colas encargado de distribuir los jobs fue Condor.

Condor es un software que crea un entorno de computación HTC (High Troughput Computing) formado por estaciones de trabajo Linux conectadas en red. Fue creado por la University of Winsconsin-Madison (UW-Madison) a principios de los años 90s. Como otros sistemas de colas, Condor provee un sistema de encolado de trabajos, políticas de planificación, prioridades, monitorización y control de recursos. Los usuarios envían sus trabajos al planificador, que les asigna una cola y elije cuándo y dónde ejecutarlos en base a una política preestablecida, monitoriza su progreso y finalmente informa a los usuarios de su finalización. Como todo sistema HTC lo que se busca es obtener un gran rendimiento a largo plazo.

Condor puede configurarse para utilizar los ciclos libres en máquinas conectadas a la red y que no están pensadas como máquinas de computación, como son las PCs de escritorio. En este caso, en momentos en los que estas máquinas no son utilizadas, pasan a formar parte del Cluster. Cualquier evento de usuario como un input de teclado o mouse, provoca que la máquina salga del Cluster.

Por supuesto, también puede utilizarse con máquinas enteramente dedicadas al cómputo y/o cálculo computacional.

Condor es el Sistema de Colas que permite abordar tareas de cálculo que sobrepasan a la capacidad de cálculo de una máquina individual.

Continuando con la reseña histórica del Cluster, se debe decir que a lo largo de los años se efectúan insípidas modificaciones en lo que se refiere a software y hardware del Cluster.

Sin embargo, para el año 2008 se empieza a considerar la posibilidad de alojar el Cluster en un lugar adecuado, efectuando las ejecuciones edilicias necesarias para mejorar sustancialmente el desempeño del mismo.

En el año 2008, el Cluster BACO estaba compuesto por:

41 nodos compuestos por: 5 AMD athlon 2000+, 26 AMD sempron 2400, 10 AMD sempron 2800, todos con 256MB de RAM y disco duro de 20GB. Todos ellos en arquitectura x86.
Sistema Operativo Scientific Linux 5 – 32bits, Sistema de Colas: Condor versión 5.1-32 bits
14 UPS 1KVA online
1 switch 10/100 24 bocas, 2 switch 10/100 16 bocas
Estanterías metálicas con cableado de red Ethernet
Aire acondicionado Split – 3000 VA

Para fines del 2009, las necesidades de mejoramiento hacen que se pueda actualizar la versión de Condor, así como realizar un recambio de las PCs que componen el Cluster. Por ello, se crea otro Cluster de PCs denominado BACO2.

Cluster BACO2:

8 sempron 2400, con 512MB RAM– HDD 40GB
6 pentium D 2.8GHz, con 512MB RAM– HDD 40GB
1 core 2 duo 2.33 GHz, con 512MB RAM– HDD 40GB
8 core 2 duo 2.33 GHz, con 1024MB RAM– HDD 40GB
2 UPS 3 KVA online
1 UPS 1 KVA online
2 switch 10/100 24 bocas
Estanterías metálicas con cableado de red
Todas están bajo el sistema operativo Linux (Red Hat) y con el sistema de gestion de colas de procesos (con mecanismo de checkpoint y prioridad) Condor.

A todo ello se realiza un traslado del Cluster BACO y BACO2 a su sitio actual en el año 2010, en donde se realizan la instalación de un Sistema de Aire Acondicionado adecuado e infraestructura eléctrica, necesaria para alimentar dicho equipamiento.

Se debe señalar que, hasta el traslado de las máquinas a la ubicación del Cluster Actual, se sucedían diversos inconvenientes con el mantenimiento del software y mayormente con el hardware, ya que en los lugares que se emplazaban no eran adecuados.

Basándose en la historia del Cluster, se puede decir que el mismo tiene la particularidad de ser un Cluster de PC`s y esto radica en la visión sobre la que fuera ideado el Cluster, en donde las PC`s que se adquieren para el mismo, cuando cumplen su ciclo de vida dentro del Cluster, son facilitadas a los investigadores y personal de la Universidad, teniendo de esta forma cada máquina un periodo de vida útil extendido, siguiendo la perspectiva de WAEE’s,(Waste Electrical and Electronic Equipment, WEEE).

En el año 2011, se efectúa la incorporación de un CPA (Personal de Apoyo a la Investigación -Conicet) que comienza a desarrollar tareas en el Cluster. Es así que se implementan cambios significativos que se plasman a lo largo de los años 2011/12. Al respecto, se efectuaron diversas tareas en el Cluster para mejorar su desempeño, en lo que respecta a la disminución de fallas. A continuación se describen las mejoras que se efectuaron a nivel de software y hardware:

En lo que respecta al Software para desarrollar el sistema Cluster, se continua utilizando Scientific Linux como sistema operativo, en una versión más actualizada y el Sistema de Colas encargado propiamente para implementar el Cluster, de conectar los nodos y ponerlos a trabajar en conjunto, es Condor en una versión también más actualizada.

Al respecto, se debe señalar que actualmente los usuarios que utilizan el Cluster hacen uso del universo o entorno de ejecución denominado STANDARD.

Este entorno utiliza para su funcionamiento “Checkpointing” y “Remote System Calls”. Estas dos figuras hacen una tarea más fiable y mantiene un acceso uniforme para obtener los recursos por parte de todos los nodos que componen el Cluster.

A su vez, se encuentran centralizados los ficheros checkpoint a través de un Servidor Checkpoint.

En lo que respecta al Hardware, se debe señalar que, en primera instancia, se han realizado obras de instalaciones eléctricas y de red, ajustadas a las diversas PC’s que componen el Cluster y contemplando previsiones futuras de ampliaciones del Cluster.

Seguidamente, para solucionar problemas de temperatura y cortes de energía que se producían en el sitio donde está alojado el Cluster, se diseña e implementa un sistema que realiza el monitoreo de la tensión de línea (las tres fases R, S, T), y la temperatura del recinto donde se encuentra el Cluster.

Se posee una aplicación residente en una PC que, a partir de las variables sensadas y al detectarse falta de tensión de línea y/o que la temperatura se eleve por encima de un umbral pre-establecido, there is a difference, dicho programa envía un mensaje al Servidor del Cluster para que suspenda todos los procesos que estén corriendo en los Nodos del Cluster, para luego proceder a un apagado controlado de los mismos, logrando con ello prevenir daños y pérdida de información.

Posteriormente, a fines de 2012 se comienza con la implementación de un nuevo Cluster denominado BACO3, el cual reemplaza a los anteriores.

Para ello, previamente se efectúan pruebas en pequeña escala, las cuales son satisfactorias; seguidamente, previendo la migración progresiva al nuevo servidor BACO3, se crean los usuarios que tiene BACO2 en BACO3 (haciendo un análisis de la utilización del cluster de c/ uno de ellos).